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Метод побудови комп ’ютерно1 системи длагностики на 
основ! анал1зу даних вибтрки, що навчае 


В статье рассматривается метод построения компьютерной системы диагностики на основе алгоритмов 
распознавания образов и кластерного анализа. Предлагается, используя исходные множество диагности- 
руемых состояний и набор наблюдаемых характеристик, сформировать априорный словарь признаков и 
построить обучающую выборку, а затем на основе анализа данных этой выборки сформировать такое 
пространство решений, в котором формальные образы эталонов диагностируемых состояний разделены и 
компактны. 

Ключевые слова: компьютерная система диагностики, кластерный анализ, 

множество диагностируемых состояний. 
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У стати розглядаеться метод побудови комп’ютерно! системи дагностики на основ! алгоритмив розшзнаван- 
ня образив 1 кластерного аналзу. Пропонуеться, використовуючи вхлдний на@р станв, що длагностуються, 1 
набфр спостережуваних характеристик, сформувати апр1орний словник ознак 1 побудувати навчальну ви- 
@трку, а потм, на основ! аналзу даних ще! ви@рки, сформувати такий простр рипень, в якому формальн! 
образи еталонв станйв, шо дагностуються, розподлен! й компактн:. 
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Введение 


Компьютерные системы диагностики (КСД) разного уровня сложности и направ- 
ленности традиционно уже достаточно давно нашли свое применение в медицине и 
технике [1-3]. 

В последнее же время область их использования существенно расширилась и ох- 
ватывает такие отрасли знаний, как психологию, социологию, текстологию, экономику и 
др. [4], [5]. 

При исследовании закономерностей поведения сложных систем и при решении 
задач диагностики состояний таких систем специалисты сталкиваются с необходимостью 
одновременного учета большого количества разнообразных признаков. 

В этом случае применение классического математического аппарата оказывается 
весьма ограниченным и затруднительным из-за сложности природы изучаемых явлений 
и объектов. 

Использование же подходов, которые базируются на методах и алгоритмах прик- 
ладной статистики, теории распознавания образов и кластерного анализа, позволяет 
находить более эффективные решения как в случае изучения закономерностей поведения 
сложных систем, так и в случае построения соответствующих прикладных систем диаг- 
ностики [6], [7]. 

Целью данной работы является разработка метода построения компьютерной 
системы диагностики, в рамках которого на основе задаваемого множества диагности- 
руемых состояний и набора наблюдаемых характеристик последовательно формируют- 
ся априорный словарь признаков и классифицированная обучающая выборка (КОВ), а 
затем, путем анализа содержимого этой выборки, выполняется процедура обучения и в 
результате формируется такое пространство решений, в котором формальные образы 
эталонов диагностируемых состояний представляют собой компактные и разделенные 
кластеры. 


Постановка задачи 


Процесс выполнения компьютерной диагностики на основе анализа наблюда- 
емых данных предлагается реализовать в три этапа, первый из которых является 
подготовительным и связан с формированием априорного словаря признаков и по- 
строением обучающей выборки. 

На втором этапе необходимо реализовать процедуру обучения, в результате вы- 
полнения которой из априорного словаря исключаются все малоинформативные приз- 
наки, не обеспечивающие разделение формальных образов эталонов диагностируемых 
состояний в соответствующем признаковом пространстве принятия решений. 

Заключительный третий этап связан с выполнением процедуры принятия реше- 
ния — постановки диагноза. 

Формально процесс компьютерной диагностики на основе анализа наблюдаемых 
данных может быть реализован в результате выполнения следующей последовательности 
преобразований: 


Я —Я >С АВ Т—№ АВ № А, (1) 


где 5 — множество диагностируемых состояний; С — словарь наблюдаемых 
(измеряемых) характеристик (СНХ); 

А -— априорный словарь признаков; 

Т - классифицированная обучающая выборка; 
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А” — уточненный словарь признаков для построения пространства решений; 

Е — множество эталонов диагностируемых состояний; 

К — множество решений; 

Е, — алгоритм получения наблюдаемых характеристик; 

Е›- алгоритм построения априорного словаря признаков; 

Ез— алгоритм формирования классифицированной обучающей выборки; 

Е4- алгоритм сепарирования признаков из априорного словаря по степени их 
информативности для построения пространства решений; 

Е5— алгоритм построения образов эталонов диагностируемых состояний в 
пространстве решений; 

Ев - алгоритм постановки заключительного диагноза. 

Итак, пусть имеется множество диагностируемых состояний $={$1,52,...,3к} И 
набор наблюдаемых характеристик С={Ст,Сь,...,Сь}. 

Для построения КСД требуется предусмотреть решение следующих задач. 

1 На основе имеющегося набора наблюдаемых характеристик С={С1,С»,....Съ} 
сформировать априорный словарь признаков А={А1,А....., А} и затем, в соответствии 
с множеством диагностируемых состояний $3={51,5›,...,5к}, построить классифицирован- 
ную обучающую выборку Т. 

2 Анализируя содержимое классифицированной обучающей выборки, реализовать 
процедуру обучения с целью сепарирования признаков по степени их информативности 
с точки зрения разделения образов эталонов диагностируемых состояний в пространстве 
принятия решений. 

3 Реализовать механизм постановки заключительного диагноза на основе 
использования построенных эталонов диагностируемых состояний в пространстве 
принятия решений. 


Описание этапов работы КСД 


Схематично этапы работы компьютерной системы диагностики на основе ана- 
лиза наблюдаемых данных изображены на рис. 1. 


Множество Построение эталонов 
диагностируе г | | | б 
мых 2 | 3 РЕ 
состояний | | Построени: а, а | 
= е © ое е 
Формирование С т о информативных диагностируемых 
И априорного словаря ОРУЧиЮЩЕ, признаков для —»^ состояний | 
признаков | Выоорки построения 
Словарь | а о ] 
Е пространства решений — — — 
наблюдаемых ЕЕ лы] Теа Рени 
характеристик | 
Словарь информативных 5 Эталоны 
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пространства решений состояний 


Постановка диагноза | 
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Й объект 


ка заключительного 


диагноза 


Диагностируемы 
г — — ЕЕ ео 
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Рисунок 1 — Схема этапов работы компьютерной системы диагностики 
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Процесс постановки диагноза конкретной прикладной компьютерной системой 
диагностики начинается с определения множества диагностируемых состояний 
$={51,52....3к} и формирования исходного словаря наблюдаемых характеристик 
С={Си,Со.....Су}. Решение этой задачи должно выполняться специалистами, являющимися 
экспертами в соответствующей прикладной области знаний. Предложить универса- 
льный механизм для решения указанной задачи выступает нетривиальной пробле- 
мой, а потому в данном случае опираются на накопленный экспертами практический 
опыт и на привлечение аналитиков, являющихся специалистами в области примене- 
ния компьютерных методов анализа данных [8]. 

Отметим, что словарь наблюдаемых характеристик будет представлять собой 
выборку из соответствующей предметной области генерального словаря. С одной 
стороны, для обеспечения более высокой результативности работы КСД необходимо 
стремится к тому, чтобы СНХ содержал как можно большее число характеристик. 
С другой стороны, это будет приводить к возрастанию стоимостных, временных и 
других издержек. Конечным результатом совместной работы экспертов и аналитиков 
будет являться сформированный априорный словарь признаков А={А\,А.,...,Аз}. 

Переходим к построению обучающей выборки. Каждое диагностируемое 


состояние 5; (где 1= 1,К) формально описывается множеством из тт; (где 1 = Т.К) 
наблюдений, причем каждое отдельное наблюдение значений признаков из априорного 
И 


Г, 
словаря признаков представляется в виде вектора-столбца { = 


1 


п 


Объединение всех таких векторов для всех 3; (где 1 = к) образуют клас- 
сифицированную обучающую выборку Т, которая представляет собой прямоугольную 
матрицу размерности п х тт, где т = п1!+ т2+...+тк, а пл; — количество наблюдений для 
состояния 5; (где 1= 1К). При этом каждому $;3, где 1= тк ‚ соответствует матрица Т! 
размерности п х пи. 

Выполняется анализ содержимого априорного словаря путем сепарирования 
признаков по степени информативности с точки зрения разделения формальных 
образов состояний 53; (где 1 = 1к) в многомерном признаковом пространстве. 
В результате, признаки из априорного словаря А = {Аг,А,,...,А„} разбиваются на три 
вида А®) = {А!,А>0),.. Аш}, АЯ = {АА В,А.©,..,А,20)}, А® = { АС), Аз)... .Аз 8}, 
где А = А? АВА и п1+02-+п3=п. 

Очередной признак А; (где 1 = 11) будет отнесен к одному из трех видов на 
основе выполнения одного из следующих трех условий: 

1) если для всех пар (5,3;) (где ЕК; ЬК; 9:1) соответствующий критерий 
однородности не показал существенного различия между выборками значений этого 
признака, то А; является признаком первого вида; 

2) если для всех пар (З«,5;) (где аЕЬА; ЬК; 9:1) соответствующий критерий 
однородности показал существенное различие между выборками значений этого 
признака, то А; является признаком второго вида; 

3) если же для признака А; не выполнилось ни одно из двух предыдущих 
условий, то его следует отнести к третьему виду [9]. 
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Для дальнейшего использования в уточненный словарь А” включаются только 
признаки второго вида, т.е. А’={А!®),А>®,...,А,20}. Переход к построению эталонов 
диагностируемых состояний происходит только в том случае, когда словарь 
признаков А” оказывается непустым, а иначе необходимо вернуться и сформировать 
новый вариант априорного словаря. 

Процедура построения эталонов диагностируемых состояний начинается с 
того, что и матриц Т1,Т..... к исключаются строки, содержащие значения признаков 
первого А“? и третьего Аб) видов, и параллельно все соответствующие значения 
признаков второго вида нормируются к единичному интервалу по формуле: 


ез=(6; — п; )/(тлах; — шш;) У = 1,72 : = т, з (2) 


где шш; — минимальное значение среди всех &; в 1-ой строке, а шах; — 
максимальное значение среди всех &; в 1-ой строке. 

В результате получаются матрицы Е1,Ео,..,Ек размерности 02 х ть которые 
представляют собой образы эталонов диагностируемых состояний. Процедура поста- 
новки заключительного диагноза начинается с того, что диагностируемый объект 
о описывается на основе признаков из угочненного словаря А= { А. ©, А29,.. 
А,2°)} в виде матрицы Е” размерности п2.х т’, где т’ — количество наблюдений я 
диагностируемого объекта. Используя матрицы Е1,Е›,...,Ек и Е’ можно сформировать 
соответственно эталоны-кластеры и кластер диагностируемого объекта, а затем осу- 
ществить постановку заключительного диагноза на основе оценки взаимного размеще- 
ния кластеров. Для кластера Е” определяется самый ближайший Е; из всех Е1,Е.....Нк, И 
тогда искомым результатом будет являться состояние $:. 


Выводы 


Разработан метод построения компьютерной системы диагностики на основе 
анализа данных классифицированной обучающей выборки, который базируется на 
использовании аппарата распознавания образов и кластерного анализа. Качественное 
выполнение процедуры постановки заключительного диагноза обеспечивается за счет 
реализации процедуры обучения. Этой процедурой предусматривается сепарирование 
признаков из исходного априорного словаря по степени информативности с точки 
зрения разделения эталонов диагностируемых состояний в многомерном признаковом 
пространстве принятия решений. 

Предложенный метод построения компьютерных систем диагностики является 
универсальным с точки зрения применения в различных прикладных областях. Он 
предусматривает автоматическое выполнение процедур обучения и постановки диаг- 
ноза, и при этом позволяет диагностировать состояния на основе анализа различных по 
своей природе исходных признаков. 

Ограничения метода в первую очередь связаны с тем, что при решении реальных 
задач может возникать ситуация, когда словарь информативных признаков для по- 
строения пространства решений оказывается пустым. 
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